跑批量,每隔一小時執(zhí)行一次的數(shù)據(jù)處理方式,在一定程度上已不能滿足用戶需求?,F(xiàn)在常用的數(shù)據(jù)處理方式,可分為實時處理和離線處理。
數(shù)據(jù)的分類
一.實時處理:Flume+Kafka+Storm+Mongo
通過Flume進行數(shù)據(jù)的的采集,將數(shù)據(jù)推送給Kafka作為數(shù)據(jù)的緩存層,Storm作為kafka的消費者,從而進行實時的處理。最終,通過Web展示給前端,能夠?qū)崟r統(tǒng)計和分析車輛的在線總數(shù),軌跡點總數(shù),對此可以做一些相關的應用。
數(shù)據(jù)來源:主要是Nginx 服務器獲取的GPS數(shù)據(jù)和MSp數(shù)據(jù)格式都是JSON。
數(shù)據(jù)采集:通過Flume的攔截器對日志進行預處理,將數(shù)據(jù)存儲在緩存層kafka。
數(shù)據(jù)統(tǒng)計:通過Storm實時拉取數(shù)據(jù)做計算,將臨時結(jié)果數(shù)據(jù)存儲在Redis。
數(shù)據(jù)落地:最終的數(shù)據(jù)存儲在Mongo中,定時獲取Redis中的數(shù)據(jù),存儲在Mongo。
Web展示:查詢數(shù)據(jù)庫定時更新前端頁面,可以查看車輛的一些情況。
二.離線處理:hadoop +hive
Hadoop分布式存儲+分布式運算的框架,可以對海量數(shù)據(jù)進行統(tǒng)計分析,解決單節(jié)點極限性。
通過編寫MapReduce可以批量統(tǒng)計某個地域的車輛里程情況、道路等級,通過速度判斷車型、車輛駕駛情況等,使用Hive做數(shù)據(jù)倉庫,可以統(tǒng)計最近一年或者兩年的數(shù)據(jù),進行數(shù)據(jù)的建模和歷史數(shù)據(jù)的統(tǒng)計和分析。
離線數(shù)據(jù)存儲,找成都吉福匯,專業(yè)的團隊、優(yōu)秀的解決方案、良好的售后服務,讓用戶省心更放心!
?
文章轉(zhuǎn)自網(wǎng)絡,如有侵權請聯(lián)系刪除